🦊latent diffuison modelsとVAE
前
ここまでの技術はピクセル画像、つまり我々の目に見える画像で行ってきましたが、計算量が多すぎてご家庭のパソコンでは動かせないという問題がありました
この低次元というのが潜在空間(latent space)であり、ピクセル画像を潜在空間に変換したり、逆にピクセル画像に戻したりするのがVAEです ComfyUIで見てみる
分かりやすさのためにimage2imageのworkflowを見てみましょう
https://gyazo.com/22d5f654c3c598feb046cf71d4d8d4aa
その状態でKsamplerがサンプリングを行います
実践的な話
どのVAEを使えばいいか
RAWをJPEGに変換すると画像が劣化するのと同じように、というかそれ以上にピクセル画像を潜在空間へエンコード/デコードすると画像が劣化します
そして、VAEによってその処理の上手い下手にかなり大きな差があります
https://gyazo.com/5b799e6a88f788ebe04c3ed2abc7fb3c
これに対処するために古今東西様々なVAEが開発されたのですが、以下のVAEを使えば間違いないのでそれ以外忘れてください
Stable Diffusion 1.5ベース
ダウンロード
ComfyUI_windows_portable\ComfyUI\models\vaeに置く
SDXLベース
潜在空間での画像編集